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摘要 数据 科学 的 发 展 ， 将 为 计算 智能 的 持续 发 展 提供 新 的 可 能 与 机 遇 ; 与 此 同时 ， 计 算 智能 的 发 展 与 新 型 
智能 范式 的 兴起 ， 也 将 为 大 数据 在 各 行业 和 各 领域 的 应 用 提供 新 的 契机 。 文 章 阐述 了 数据 科学 的 内 涵 ， 探 讨 
了 计算 智能 的 发 展 与 新 型 智能 范式 ， 列 举 了 引领 数据 科学 与 计算 智能 研究 的 应 用 方向 ; 进而 基于 香山 科学 会 
议 第 667 次 学 术 讨 论 会 与 会 专家 的 讨论 ， 提 炼 形 成 数据 科学 与 计算 智能 领域 的 七 大 关键 问题 ， 以 期 使 该 领域 
研究 得 到 相关 领域 研究 者 与 应 用 者 的 共同 关注 ， 从 而 把 握 时 代 的 机 遇 ， 推 动 数 据 科学 与 计算 智能 持续 发 展 。 
关键 词 ”数据 科学 ， 计 算 智能 ， 大 数据 ， 智 能 系统 ， 范 式 
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大 数据 已 成 为 信息 社会 的 普遍 现象 ， 是 数字 经 济 然 大 数据 与 计算 智能 技术 在 大 规模 工程 化 应 用 方面 取 
的 关键 资源 。 以 深度 学 习 为 代表 的 大 数据 驱动 的 人 得 了 长 足 进 步 ， 但 支撑 技术 进步 的 理论 基础 和 技术 体 
工 智 能 技术 在 很 多 行业 和 领域 获得 了 成 功 中 ,这 类 人 系 尚 处 于 早期 阶段 。 当 前 ， 大 数据 “红利 ”效应 在 逐 
工 智 能 本 质 上 源 于 计算 能 力 ， 故 可 将 其 归 为 计算 智 渐 减 弱 ， 计 算 智能 技术 的 单 点 突破 难以 为 大 数据 驱动 
fe. 与 此 同时 ， 大 数据 是 这 类 人 工 智 能 成 功 的 重要 ”的 智能 应 用 提供 持续 支撑 ， 吸 待 对 数据 科学 和 计算 知 
因素 ,这 类 智能 也 被 称 为 数据 驱动 的 计算 智能 ， 从 这 ”能 的 基础 问题 进行 深入 思考 ， 重 构 其 理论 基石 ， 从 而 
个 意义 上 讲 ， 当 前 数据 和 智能 是 一 体 两 面 的 关系 。 虽 ”推动 技术 与 工程 应 用 持续 进步 和 跨越 式 发 展 。 


* 通 讯 作者 
修改 稿 收 到 日 期 : 2020 年 11 月 29 日 


D 现 有 人 工 智 能 ， 无 论 规则 驱动 或 数据 驱动 ， 均 以 计算 能 力 为 支撑 ， 本 质 上 是 由 计算 带 来 的 ， 故 称 之 为 计算 智能 ; 区 分 于 演化 计 
算 领 域 的 “Computational Intelligence” ， 本 文中 的 “计算 智能 ”英文 为 “Computing Intelligence” 。 
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本 文 基于 香山 科学 会 议 第 667 次 学 术 讨论 会 与 会 
专家 学 者 的 集体 智慧 ， 探 讨 并 总 结 了 4 个 方面 的 问 
题 : D 在 数据 科学 的 内 涵 和 外 延 尚 缺乏 严谨 定义 和 学 
界 共 识 的 情况 下 ， 如 何 深入 认 知 反映 客观 世界 的 数据 
空间 的 共性 规律 ? 数据 科学 在 本 体 论 和 方法 论 2 个 层 
面 上 需要 回答 的 基础 问题 是 什么 ? D 如 何 理解 、 测 试 
并 评估 现 有 计算 智能 的 能 力 边界 ”人 脑 、 复 杂 社 会 系 
统 、 自 然 进 化 系统 等 自然 智能 ， 往 往 具备 比 现 有 计算 
智能 更 加 高 效 的 “计算 思维 ”和 更 加 简洁 优美 的 智能 
推演 与 决策 能 力 ， 是 否 可 以 借鉴 这 些 自然 智能 探索 新 
的 人 工 智能 范式 ?”G@) 在 探讨 数据 科学 和 计算 智能 的 同 
时 ， 有 哪些 值得 关注 的 牵引 性 应 用 ? 新 的 智能 范式 对 
解决 复杂 的 社会 问题 是 否 是 一 个 很 好 的 机 遇 ?” @ 在 未 
来 的 发 展 中 ,我 们 该 如 何 把 握 时 代 机 遇 ， 重 点 关注 哪 
些 关 键 科 学 挑 成 ， 优 先 解决 哪些 关键 问题 ? 


1 数据 科学 的 内 涵 
1.1 基于 方法 论 视角 的 数据 科学 内 涵 

关于 数据 科学 的 内 涵 ， 一 种 流行 的 看 法 认为 数据 
科学 就 是 图 灵 奖 得 主 吉 姆 -格雷 ( Jim Gray ) 提出 的 第 
四 范式 (the fourth paradigm ) 外 ， 即 在 实验 观测 、 理 论 
推 洽 、 计 算 仿真 之 后 的 数据 驱动 的 科学 研究 范式 。 第 
四 范式 的 基本 思想 是 把 数据 看 成 现实 世界 的 事物 、 现 
象 和 行为 在 数字 空间 的 映射 ， 认 为 数据 自然 蕴含 了 现 
实 世界 的 运行 规律 ; 进而 以 数据 作为 媒介 ， 利 用 数据 
驱动 及 数据 分 析 方 法 揭示 物理 世界 现象 所 蕴含 的 科学 
规律 。 这 是 一 种 类 似 方法 论 视角 来 定义 的 数据 科学 的 
内 涵 ， 即 数据 驱动 科学 发 现 。 

第 四 范式 将 数据 科学 从 其 前 的 3 个 科学 研究 范式 
中 分 离 出 来 ， 带 来 了 科学 发 现 和 思维 方式 的 革命 性 改 
变 。 借 用 美国 谷歌 公司 研究 部 主任 皮特 : 诺 维 格 ( Peter 
Norvig ) 的 话 来 说 ，“ 所 有 的 模型 都 是 错误 的 ， 进 一 
步 说 ， 没 有 模型 你 也 可 以 成 功 (all models are wrong, 


and increasingly you can succeed without them) ” P, 
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海量 的 数据 使 得 我 们 可 以 在 不 依靠 模型 和 假设 的 情况 
下 ， 直 接 通 过 对 数据 进行 分 析 发 现 过 去 的 科学 人 研究 
方法 发 现 不 了 的 新 模式 、 新 知识 甚至 新 规律 "。 第 四 
范式 的 一 个 典型 研究 案例 是 关于 帕 金 森 病 的 起 因 研 
FE, HRM 160 万 份 病历 的 大 数据 分 析 ， 人 研究 人 员 
发 现 由 金森 病 的 起 因 与 人 的 阑尾 有 关 。 这 是 基于 大 数 
据 统计 帕 金 森 病 患 病 率 与 切除 阑尾 的 相关 性 得 出 的 结 
论 。 

第 四 范式 通过 大 数据 分 析 能 够 发 现 数据 中 列 仿 的 
大 量 相关 关系 ， 为 科学 发 现 提供 了 新 视野 。 但 是 ， 第 
四 范式 本 身 无 法 从 大 量 的 相关 关系 中 甄别 出 事物 的 本 
质 规律 。 在 发 现 了 由 金森 病 和 阑尾 的 相关 性 后 ， 有 些 
对 第 四 范式 十 分 执着 的 学 者 召集 了 更 大 量 的 由 金森 病 
患者 ， 以 彻 查 他 们 的 基因 ， 调 查 他 们 的 生活 环境 和 
生活 习惯 ， 以 期 从 中 发 现 一 些 共 性 ; 然后 去 找 那 些 也 
有 这 些 共性 但 是 没有 得 由 金森 病 的 人 ， 看 他 们 做 了 什 
么 ， 有 什么 共性 ; 如 果 这 种 共性 存在 ， 可 能 就 是 防治 
帕 金 森 病 的 解决 方案 。 但 是 ， 其 结论 却 不 尽 人 意 。 可 
以 想象 ， 人 体 的 器 官 何 止 一 个 闹 尾 ， 且 帕 金 森 病 患者 
的 生活 习惯 何其 繁杂 ,单独 靠 第 四 范式 的 数据 驱动 方 
法 做 漫 无 边际 的 相关 性 分 析 ， 不 仅 要 消耗 大 量 的 计算 
资源 ， 也 难以 真正 预测 未 来 的 趋势 与 变化 。 因 此 ， 从 
方法 论 来 看 ， 第 四 范式 在 揭示 事物 本 质 规律 方面 存在 
固有 的 局 限 性 ， 数 据 科学 需要 在 方法 论 上 突破 第 四 范 
式 。 

1.2 基于 本 体 论 视角 的 数据 科学 内 涵 

数据 科学 男 外 一 种 值得 探讨 的 内 涵 是 基于 “本 体 
论 ” 视 角 ， 认 为 数据 是 反映 自然 世界 的 符号 化 表示 。 
既然 自然 世界 是 客观 存在 并 具备 共性 科学 规律 的 ， 那 
么 反映 自然 世界 的 数据 空间 也 可 能 具有 独立 于 各 个 领 
域 的 一 般 性 规律 。 因 而 ， 数 据 科学 应 该 是 “用 科学 方 
法 来 研究 数据 ”， 数 据 科 学 也 应 该 有 类 似 “ 信 息 论 ” 
这 样 的 学 科 基 础 理论 。 更 具体 来 看 ， 当 我 们 把 世界 
看 成 是 由 物理 世界 、 机 带 世 界 和 人 类 社会 组 成 的 三 元 
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世界 时 ， 新 型 的 “感知 、 计 算 、 通 信 、 控 制 ” 等 信息 
技术 使 三 元 世界 相互 影响 和 融合 ， 形 成 了 一 个 平行 化 
(FE ) 的 复杂 数据 空间 。 这 样 的 数据 空间 ， 除 了 映 
射 物理 世界 ， 其 本 身 是 否 具有 独特 的 一 般 性 规律 ? 如 
何 用 科学 的 方法 来 研究 数据 的 一 般 性 规律 ， 揭 示 其 内 
在 机 理 ? 这 些 是 数据 科学 更 基本 的 问题 。 例 如 ， 数 据 
科学 中 的 一 些 常 数 规律 (对称 性 、 黄 金 分 割 、 长 尾 分 
布 等 ) 和 更 广 意 义 上 的 大 数据 非 确定 性 、 数 据 广义 关 
联 、 时 空 演 化 、 数 据 复 杂 性 等 。 
1.3 数据 科学 是 方法 论 和 本 体 论 在 数据 价值 实现 目 

标 下 的 统一 

数据 科学 到 底 应 该 从 哪些 视角 来 定义 其 独 有 的 内 
涵 与 特征 ? 一 般 认 为 ， 作 为 一 门 学 科 的 定义 ， 至 少 
应 该 从 其 研究 对 象 、 方 法 论 和 学 科目 标 3 个 维度 去 界 
定 。 数 据 科 学 的 内 涵 应 该 既 包 括 本 体 论 内 容 和 方法 论 
内 容 ， 还 包括 其 独特 的 价值 实现 目标 (图 1) 。 基 于 
这 一 认 知 ， 可 以 定义 “数据 科学 是 有 关 数 据 价值 链 实 
现 过 程 的 基础 理论 和 方法 学 ， 它 运用 基于 分 析 、 建 
模 、 计 算 和 学 习 杂 灶 的 方法 ， 研 究 从 数据 到 信息 、 从 
言 息 到 知识 、 从 知识 到 决策 的 转换 ， 并 实现 对 现实 世 
界 的 认 知 和 操控 ”外 。 这 “三 个 转换 、 一 个 实现 ”是 
数据 科学 的 学 科目 标 。 而 实现 这 一 目标 的 方法 论 来 日 
多 个 学 科 方 法 的 融合 ， 包 括 数 学 ( 特别 是 统计 学 ) 、 
计算 机 科学 ( 特别 是 人 工 智 能 ) 、 社 会 科学 〈 特别 是 
管理 学 ) 等 。 


价值 实现 


数据 驱动 aE 


方法 论 视角 本 体 论 视角 


图 1 数据 科学 的 内 涵 : 方法 论 和 本 体 论 在 数据 价值 实现 目 
标 下 的 统一 
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1.4 数据 科学 与 相关 学 科 的 关系 

目前 ， 关 于 数据 科学 的 基本 内 涵 和 基础 问题 还 没 
有 像 数 学 、 物 理学 和 计算 机 科学 那样 成 体系 、 有 共 
识 。 但是， 数据 科学 的 多 学 科 交 又 特征 及 大 数据 自身 
的 价值 特性 已 经 成 为 共识 。 我 们 可 以 借助 相关 学 科 来 
探讨 当前 数据 科学 研究 需要 关注 的 基础 问题 。 

(1) 数据 科学 与 统计 学 。 统 计 学 将 数据 作为 研 
究 对 象 ， 致 力 于 收集 、 描 述 、 分 析 和 解释 数据 ”"， 其 
为 数据 科学 提供 了 重要 基础 和 工具 。 然 而 ， 在 大 数据 
面前 ,统计 学 也 面临 着 诸多 问题 和 挑战 。 例 如 : 统计 
假设 在 复杂 大 数据 分 析 中 难以 满足 、 数 据 自 身 及 分 析 
结果 的 真 伪 难 以 判定 、 端 到 端的 大 数据 推断 缺乏 基础 
理论 支撑 等 。 统 计 学 针对 这 些 问题 目前 基本 上 是 束 手 
无 策 的 “; 而 统计 学 所 依赖 的 一 些 传统 强 假设 ( 如 独 
立 同 分 布 假设 、 低 维 假设 等 ) ， 也 都 无 法 适用 于 目前 
多 源 异 质 的 真实 数据 。 因 此 ， 数 据 科学 虽然 在 研究 对 
象 上 和 统计 学 是 相同 的 ， 但 在 研究 问题 的 范畴 上 却 是 
超越 统计 学 的 。 辟 如: 数据 科学 该 如 何 深 入 认识 数据 
固有 的 共性 规律 ”是 否 能 建立 一 套数 据 复 杂 性 理论 体 
Fe? 数据 规模 、 数 据 质量 和 数据 价值 有 什么 定量 关 
系 ? 如何 刻画 大 数据 所 表现 出 来 的 多 层面 的 非 确定 性 


特征 ? 


(2) 数据 科学 与 网 络 科学 。 数 据 科 学 的 发 展 可 
以 借鉴 网 络 科学 的 发 展 历程 ， 以 类 似 的 方法 寻找 研 
究 对 象 的 共性 规律 中。 网 络 科 学 发 现 了 物理 世界 中 广 
泛 存在 的 网 络 所 呈现 出 的 共性 规律 ( 如 竹 率 分 布 、 小 
世界 现象 等 ) ， 从 而 促进 了 其 从 图 论 和 随机 图 论 中 分 
离 出 来 独立 发 展 ， 实 现 了 其 研究 对 象 从 作为 数学 工具 
的 图 到 作为 物理 对 象 的 网 络 的 转变 。 那 么 在 数据 科学 
中 ， 数 据 的 共性 规律 是 什么 ”在 现实 世界 中 是 否 有 完 
全 不 同 的 两 个 数据 集 之 间 存 在 茶 种 共性 ”一 方面 ， 一 
下 子 找到 所 有 领域 的 共性 规律 可 能 是 不 现实 的 ， 因 而 
可 以 先 从 几 个 关键 领域 出 发 ， 寻 找 部 分 领域 的 共性 规 
律 ; 男 一 方面 ， 寻 找 数据 的 共性 规律 需要 能 够 问 出 合 
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适 的 基础 性 问题 ， 类 似 网 络 科 学 中 关于 度 分 布 、 聚 集 
系数 、 网 络 直径 、 网 络 脆弱 性 、 网 络 适 航 性 等 方面 的 
问题 。 目 前 ， 尚 不 明确 各 个 领域 的 数据 是 否 存 在 统一 


成 了 一 系列 代表 性 成 果 。 无 论 是 早期 符号 计算 ( 以 
数理 逻辑 为 基础 ) 、 进 化 计算 、 支 持 向 量 机 、 贝 时 大 
网 络 ， 还 是 当前 在 工业 界 获 得 巨大 成 功 的 基于 多 层 神 


的 规律 。 因 此 ， 数 据 科学 还 需要 在 应 用 领域 进行 一 定 
时 间 的 探索 ， 从 领域 知识 中 汲取 养分 ， 并 逐步 发 现 规 
律 、 寻 找 共性 。 


经 网 络 的 深度 学 习 方 法 ， 从 模型 的 本 质 上 来 看 都 是 
建立 在 图 灵机 的 基础 上 ， 基 本 都 符合 印 奇 -图 灵 论 题 
( Church-Turing thesis ) ""， 即 “任何 在 算法 上 可 计算 


(3) 数据 科学 与 计算 机 科学 。 数 据 科 学 的 起 源 
与 发 展 离 不 开 计算 机 科学 ， 但 这 两 个 学 科 由 于 研究 对 
象 和 研究 方法 的 不 同 ， 未 来 也 许 会 平行 发 展 。 简 单 而 
言 ， 从 人 研究 对 象 的 角度 来 说 ， 计 算 机 科学 是 关于 算法 
的 科学 ， 而 数据 科学 是 关于 数据 的 科学 。 从 计算 机 科 
学 到 数据 科学 ,研究 手段 从 传统 计算 机 领域 的 算法 复 
杂 性 分 析 ， 转 变 为 对 数据 的 复杂 性 和 非 确定 性 等 特性 
进行 分 析 研 究 。 如 何 对 非 确定 边界 的 数据 ， 在 有 限时 
间 空 间 下 进行 计算 ? 数据 复杂 性 、 模 型 复杂 性 与 模型 
性 能 之 间 是 什么 关系 ? 解决 某 个 问题 所 需要 的 大 数据 
的 量 的 边界 如 何 确定 ? 是 否 能 发 展 一 套 理论 ， 为 基于 
大 数据 的 计算 模型 提供 其 能 力 上 、 下 界 的 保证 ? 这 些 
都 是 数据 科学 独立 于 计算 机 科学 之 外 所 需要 解决 的 问 
题 。 

数据 科学 目前 尚 处 于 发 展 的 早期 阶段 ， 其 研究 方 
法 也 应 该 与 传统 科学 有 所 区 分 。 数 据 科 学 ， 正 处 于 
“无 知 ”到 “科学 ”的 中 间 状 态 。 它 目前 还 没有 形成 
一 门 完整 的 学 科 一 一 信息 是 不 完备 的 ， 环 境 也 是 非 确 
定 的 。 因 此 ， 不 能 完全 按照 传统 学 科 来 思考 和 要 求 数 
据 科学 ; 而 应 该 在 这 样 不 完备 、 非 确定 的 环境 下 ， 重 
新 思考 和 定义 数据 科学 及 数据 科学 蝇 待 关注 的 基础 问 


题 。 


2 计算 智能 的 发 展 与 新 型 智能 范式 的 探索 
2.1 计算 智能 的 发 展 

人 工 智能 CAL) 概念 在 1956 年 由 麦卡锡 等 学 者 提 
出 ， 其 发 展 几 经 浮沉 。 基 于 对 智能 产生 机 制 的 不 同 理 
解 ， 人 工 智 能 发 展 至 今 学 派 众 多 ， 且 相互 借鉴 ， 形 


的 问题 同样 可 由 图 灵机 计算 ”。 换 名 话说， 现 有 的 人 
工 智能 模型 本 质 上 都 是 与 图 灵 计 算 模型 等 价 的 ， 故 可 
归 为 计算 智能 。 计 算 智 能 一 般 以 计算 机 为 中 心 ， 以 算 
法 理论 为 基础 ， 充 分 利用 现代 计算 机 的 计算 特性 ， 给 
出 了 解决 实际 问题 的 形式 化 模型 和 算法 。 

近 10 多 年 以 来 ， 大 数据 的 使 用 、 算 力 的 提升 和 
深度 模型 的 发 展 ， 为 计算 智能 带 来 了 新 的 契机 。 大 数 
据 、 大 算 力 、 大 模型 三 者 结合 ， 极 大 地 推动 了 计算 智 
能 的 工业 化 应 用 。 例 如 ， 计 算 智能 在 以 围棋 为 代表 的 
人 机 对 弈 、 机 噩 翻译 、 人 脸 识 别 、 语 音 识 别 、 人 机 对 
话 、 自 动 待 驶 等 应 用 中 均 取 得 了 巨大 的 成 功 。 值 得 注 
意 的 是 ， 大 数据 在 给 计算 智能 带 来 发 展 的 同时 ， 其 复 
杂 性 和 非 确定 性 也 给 计算 智能 佛 来 了 非常 大 的 挑 成 。 
现 有 的 计算 智能 在 面临 大 数据 环境 下 的 复杂 问题 和 复 
杂 系 统 时 ， 依 然 很 难 给 出 满意 的 答案 。 我 们 需要 探索 
当前 计算 智能 的 能 力 边 界 问题 ， 从 理论 上 探寻 这 类 智 
能 所 能 解决 的 问题 类 型 和 能 力 边界 。 辟 如， 通过 建立 
深度 学 习 和 统计 力学 的 关系 "7 ， 回 答 深 度 学 习 的 相关 
基础 问题 (D 表达 能 力 方面 ， 模 型 做 深 为 什么 是 必要 
的 ， 到 底 深 度 为 多 少 层 是 合理 的 ? O 模型 学 习 方 面 ， 
崎 赋 的 目标 函数 如 何 高 效 优化 ? © 泛 化 能 力 方面 ， 如 
可 实现 计算 智能 技术 从 专用 到 通用 的 转变 ? 如 何 实现 
模型 的 跨 领域 、 跨 任务 、 跨 模 态 的 泛 化 ? 

上 述 一 系列 基础 问题 将 进一步 成 为 计算 智能 未 来 
发 展 的 关键 “ 瓶 开 ”。 其 原因 是 ， 当 前 的 计算 智能 是 
大 数据 工程 化 驱动 的 ， 其 能 力 的 提升 主要 依赖 于 数据 
规模 的 增加 和 计算 速度 的 增长 。 如 果 缺 乏 数据 科学 化 
理论 的 文 撑 ， 大 数据 驱动 的 计算 智能 难以 形成 从 量变 
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到 质变 的 提升 。 那 么 另 一 种 思路 是 ， 我 们 也 许可 以 考 
虑 发 展 与 当前 计算 智能 不 一 样 的 智能 范式 ， 以 便 更 加 
简洁 高 效 地 解决 更 复杂 、 更 普 适 的 现实 问题 。 
2.2 新 型 智能 范式 的 探索 

事实 上 ， 自 然 界 中 存在 大 量具 备 智能 的 自然 系 
统 。 这 些 自然 系统 比 现 有 人 工 智能 系统 具备 更 加 简 
洁 、 高 效 的 逻辑 推理 和 自我 学 习 能 力 ， 如 脑 神经 系 
统 、 社 会 系统 、 自 然 生态 系统 等 。 那 么 ， 自 然 系统 的 
智能 模型 是 什么 ? 我 们 能 和 否 借鉴 自然 系统 中 的 智能 行 
为 ， 将 其 形式 化 为 可 计算 的 智能 范式 ”实际 上 ， 已 
有 4 类 智能 范式 在 此 方面 做 出 了 一 些 初 步 的 探索 。 
2.2.1 脑 启发 计算 

人 类 的 大 脑 皮层 具有 140 亿 一 160 亿 个 神经 元 ， 且 
每 个 神经 元 会 连接 1000 一 10 000 个 其 他 神经 元 ， 借 此 
人 类 发 展 出 了 比 其 他 物种 更 高 级 的 智慧 ""。 脑 启发 计 
算 (brain-inspired computing ) 正 是 借鉴 了 人 脑 存储 、 
处 理 信息 的 基本 原理 所 发 展 出 来 的 一 种 新 型 计算 技 
术 "。 与 传统 图 灵 计 算 机 的 计算 模式 相 比 ， 脑 启发 计 
算是 通过 增加 空间 复杂 度 来 保留 计算 单元 之 间 的 结构 
相关 性 ， 从 而 构造 基于 神经 形态 工程 的 高 速 、 新 型 计 
算 架 构 。 脑 启发 计算 的 目标 是 构造 一 套 非 “ 冯 : 诺 依 
曼 ” 架 构 、 可 实时 处 理 复杂 非 结 构 化 信息 、 超 低 功 耗 
的 高 速 新 型 计算 架构 。 脑 启发 计算 的 发 展 ， 也 许 能 》 
数据 科学 提供 新 的 计算 架构 和 高 性 能 的 计算 能 力 ， 文 
撑 通 用 人 工 智 能 的 发 展 ""。 目 前 ， 脑 启发 计算 仍 处 于 
起 步 阶段 ， 我 们 需要 进一步 思考 如 何在 不 完全 了 解 人 
脑 机 制 的 情况 下 发 展 脑 启发 计算 模式 ， 以 及 如 何 基于 
这 种 脑 启发 计算 为 科学 研究 提供 新 思路 和 新 范式 。 
2.2.2 演化 智能 

学 习 和 演化 是 生物 适应 环境 的 基本 方式 。 现 有 的 
计算 智能 基本 都 拥有 从 数据 中 学 习 的 能 力 ， 但 对 智能 
模型 的 演化 能 力 缺 乏 关注 。 例 如 ， 人 脑 是 经 过 数 百 万 


D 或 称 人 机 互助 系统 ， 即 人 类 物 能 与 机 器 智能 形成 闭环 系统 ， 
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年 的 演化 逐步 形成 的 。 从 这 个 角度 来 讲 ， 现 有 的 智能 
模型 在 依靠 人 类 设计 之 外 ， 是 否 也 能 通过 演化 过 程 去 
自动 发 现 最 佳 的 模型 结构 ? 传统 的 遗传 算法 是 一 种 
基础 的 演化 计算 模型， 而 从 演化 计算 到 演化 智能 ， 
以 及 实现 模型 自动 演化 的 智能 范式 ， 还 有 很 长 的 路 要 
走 。 未 来 ， 交 互 驱动 的 强化 学 习 、 开 放 环 境 下 的 人 工 
智能 是 值得 探索 的 方向 。 
2.2.3 复杂 系统 模拟 

自然 界 存在 大 量 的 复杂 系统 ， 如 人 类 社会 系统 、 
自然 生态 系统 、 人 体 免 疫 系 统 等 。 从 控制 和 计算 的 角 
度 来 看 ， 模 型 化 的 复杂 系统 是 “由 大 量 相互 作用 、 相 
互 依赖 的 单元 构成 的 一 个 整体 系统 ; 一 般 在 没有 中 央 
控制 情况 下 ， 这 个 整体 系统 可 通过 简单 的 运作 规则 实 
现 复杂 的 信息 处 理 ， 进 而 产生 复杂 的 集体 行为 ， 并 能 
通过 学 习 和 进化 产生 自生 长 和 自 适 应 能 力 ”""。 是 否 


新 型 智能 范式 ? 如 何 通 过 大 量 简单 智能 体 之 间 的 交互 
作用 ,产生 可 预期 的 、 具 有 高 度 复杂 性 的 群体 智 全 
这 样 的 智能 范式 也 许 会 从 根本 上 改变 传统 的 单 智 色 
的 智能 上 限 。 
2.2.4 人 机 混合 智能 

随 着 互联 网 、 物 联网 及 新 一 代 通 信 技 术 的 发 展 ， 
万 物 泛 在 互联 成 为 现实 。 未 来 ， 大量 物理 设备 、 无 
人 系统 、 人 脑 ， 通 过 泛 在 网 络 实现 “上 线 ” 和 “ 互 
联 ”。 在 这 样 的 环境 下 ， 人 在 回路 ?的 人 机 混合 智能 
具备 了 基本 的 物理 条 件 。 目 前 ， 人 工 智 能 技术 所 具备 
的 感知 、 认 知 能 力 ， 基 本 上 是 模型 与 数据 结合 ， 并 以 
机 桥 为 中 心 所 形成 的 计算 智能 ， 故 也 称 为 机 融 智 能 。 
这 种 机 器 管 能 在 存储 、 搜 索 、 感 知 、 确 定性 问题 求解 
等 方面 性 能 表现 优越 ， 但 在 高 级 认 知 和 复杂 问题 决策 
方面 与 人 类 智能 相差 很 远 。 虽 然 脑 启发 计算 取得 了 一 
些 进 展 ， 但 在 可 预期 的 未 来 ， 机 器 智能 很 难 完全 模仿 
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和 构造 出 人 类 智能 或 其 他 自然 智能 。 换 一 个 思路 ， 如 
果 将 人 的 智能 引入 到 机 融 智 能 的 系统 回路 中 ， 将 充分 
融合 人 类 智能 和 机 器 智能 的 优势 ， 从 而 形成 更 高 级 的 


智能 水 平 。 在 未 来 较 长 的 一 段 时 间 内 ， 这 种 人 机 混合 
智能 也 许 是 一 些 复杂 问题 求解 的 有 效 途 径 。 


那么 ， 在 基于 机 融 的 计算 智能 基础 上 ， 人 作为 具 
备 智能 的 自然 系统 ， 如 何 参 与 到 机 带 智 能 的 系统 回路 
是 一 个 关键 问题 。 人 机 混合 智能 需要 重点 解决 思维 
融合 或 决策 融合 的 问题 。 具 体 而 言 ， 传 统 的 人 机 接 
口 往往 是 单 向 的 ; 在 人 机 互联 情况 下 ， 人 脑 如 何 参与 
到 机 器 智 能 的 系统 回路 当中 ?如 何 同时 让 人 理解 机 屁 
思维 和 让 机 可 理解 人 的 思维 ， 从 而 实现 思维 的 无 缝 互 
动 ? 目前 ， 一 些 探索 和 挖掘 思维 潜力 的 工具 ， 如 思维 
导 图 、 思 维 地 图 、 概 念 图 等 ， 其 理论 基础 与 形式 化 模 
型 并 不 清晰 。 一 些 新 型 的 脑 机 接口 技术 进展 迅速 ， 
但 缺乏 对 人 脑 在 直觉 、 意 识 、 情 感 和 决策 方面 的 机 理 
认 知 。 也 许 ， 从 技术 上 构建 有 效 的 人 在 回路 智能 通 
道 ， 是 当前 人 机 混合 智能 亟待 解决 的 关键 问题 之 一 
(图 2) 。 
2.2.5 1s 25 

上 述 4 类 智能 范式 的 研究 ， 在 现 有 图 灵 等 价 的 计 
算 智能 基础 上 ， 或 多 或 少 地 引入 了 人 类 智能 或 自然 系 
统 智能 的 部 分 机 制 ， 从 而 为 未 来 智能 系统 的 发 展 注 
入 新 的 活力 。 但 是 迄今 为 止 ， 这 些 智 能 范式 在 可 形式 
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图 2 人 机 混合 的 新 型 智能 范式 
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化 、 可 计算 、 可 构造 等 方面 还 存在 诸多 基础 性 问题 挑 
战 。 如 果 这 些 模 式 是 未 来 新 型 智能 范式 ， 那 么 它们 是 
和 否 还 是 图 灵 等 价 的 ”这些 问 题 值得 我 们 从 本 源 上 进行 
探讨 。 数 据 是 人 类 社会 、 物 理 节 界 和 机 需 志 界 之 间 的 
桥梁 ， 同 时 数据 也 是 人 类 社会 和 物理 世界 的 符号 化 映 
射 。 因 而 ， 从 数据 入 手 是 探索 和 实现 上 述 新 型 智能 范 
式 的 基本 途径 。 数 据 科 学 基础 理论 ， 不仅 对 当前 数据 
驱动 的 计算 智能 起 到 提 质 增 效 的 作用 ， 也 将 为 未 来 新 


型 智能 范式 研究 提供 理论 文 撑 。 


3 引领 数据 科学 与 计算 智能 研究 的 应 用 


作为 一 门 实践 性 强 的 学 科 ， 数 据 科 学 的 发 展 离 不 
开 实 际 需求 牵引 与 技术 应 用 驱动 。 随 着 感知 、 计 算 、 
通信 、 控 制 等 技术 的 发 展 及 综合 集成 应 用 ，“ 人 -机 - 
物 ” 三 元 世界 高 度 融 合 ， 在 线形 成 了 一 个 网 络 化 的 大 
数据 系统 ， 其 内 部 包含 了 互联 网 、 物 联网 连接 而 成 的 
各 类 数据 。 这 是 一 个 高 度 复杂 、 强 不 确定 性 、 持 续 动 
态 演 化 的 复杂 系统 ， 是 “系统 的 系统 ”。 它 既是 智慧 
城市 、 智 能 制造 、 健 康 医疗 等 各 个 领域 应 用 的 空间 载 
体 ， 也 为 国家 安全 、 社 会 治理 、 数 字 经 济 等 领域 的 科 
学 化 、 智 能 化 发 展 提供 了 重要 的 数据 资源 供给 。 前 文 
已 提 及 ， 这 个 现实 存在 的 大 数据 系统 ， 除 了 有 具备 高 度 
复杂 性 、 强 不 确定 性 等 特性 ， 人 在 回路 也 是 其 显著 特 
征 。 针 对 这 一 现实 系统 的 研究 与 应 用 ， 将 有 可 能 为 数 
据 科 学 的 理论 与 技术 发 展 带 来 机 遇 。 针 对 这 一 复杂 系 
统 的 典型 场景 展开 研究 ， 不 仅 有 利于 揭示 数据 的 基本 
规律 ， 也 有 可 能 因此 而 牵引 未 来 新 型 智能 范式 的 研 
究 。 其 典型 的 应 用 场景 有 如 下 4 种 。 

(1) 基于 非 确定 数据 的 社会 认 知 。 在 社会 系统 
中 ， 我 们 搜集 到 的 数据 通常 与 真实 的 情况 存在 一 定 的 
偏差 ， 大 量 的 虚假 内 容 、 非 确定 性 内 容 混 杂 在 这 些 数 
据 当 中 中 。 如 何 能 基于 这 样 不 完备 的 、 非 确定 的 大 数 
据 进行 社会 认 知 是 一 个 非常 有 挑战 的 问题 。 社 会 认 知 
具体 包括 真 假 判 定 、 社 会 心理 计算 、 与 情 判 定 与 导向 
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等 。 而 面向 非 确定 数据 的 社会 认 知 ， 其 中 一 大 关键 在 
于 如 何 对 大 量 复杂 的 非 确定 数据 进行 假设 建 模 ， 如 何 
建立 复杂 社会 系统 中 个 人 行为 与 群体 社会 认 知 之 间 的 
关联 。 演 化 智能 、 复 杂 系 统 仿真 与 模拟 也 许 是 解决 这 
一 问题 的 突破 口 。 

(2) 基于 开放 环境 的 群 智 决策 。 互 联网 极 大 地 
方便 了 信息 、 知 识 和 智慧 的 互联 互通 。 在 互联 网 中 ， 
已 经 有 许多 复杂 问题 可 以 通过 群 智 决 策 的 方式 加 以 有 
效 解 决 ， 如 众 包 计算 、 人 本 计算 等 。 那 么 ， 一 方面 ， 
未 来 我 们 该 如 何 设计 或 改进 群 智 决策 中 的 内 部 个 体 交 
互 、 融 合 与 反馈 方式 后 ， 以 人 工 构造 的 群体 智能 方式 
进一步 提升 互联 网 群 智 决策 的 智能 上 限 ? 另 一 方面 ， 
从 计算 机 的 视角 来 看 ， 该 如 何 利用 或 者 模拟 这 种 人 类 
的 群 智 决策 方式 ， 来 解决 一 些 复杂 的 决策 问题 ?” 考虑 
到 智能 系统 的 演化 及 复杂 系统 的 仿真 与 模拟 ， 对 单个 
智能 体 及 智能 体 之 间 复 杂交 互 进行 建 模 ， 也 许 是 未 来 
复杂 问题 求解 的 一 个 可 能 方向 。 

(3) 人 机 融合 的 智慧 医疗 。 智 慧 医 疗 是 医学 、 计 
算 机 科学 、 公 共 卫 生 学 等 学 科 相 互 交 义 的 新 兴 领 域 。 
随 着 信息 技术 的 普及 发 展 ， 医 疗 领域 产生 了 大 量 的 数 
据 (如 电子 病历 、PB 级 基因 数据 等 ) ， 也 催生 了 诸多 
与 智慧 医疗 相关 的 应 用 需求 。 如 何 根据 患者 的 电子 病 
历 及 临床 影像 等 数据 对 疾病 诊断 提供 辅助 决策 支持 ? 
如 何 根据 人 类 的 基因 数据 ， 提 前 进行 疾病 的 预测 ， 为 
疾病 的 早期 发 现 、 新 生 儿 的 先天 缺陷 预测 提供 帮助 ? 
需要 注意 的 是 ， 智 慧 医 疗 需要 强大 的 可 靠 性 ， 但 目前 
的 人 工 智能 还 难以 替代 医生 。 一 种 比较 好 的 提高 思路 
是 ， BURA (EH ) 在 回路 的 新 型 智能 范式 ; 通过 这 
样 人 机 混合 的 方式 ， 使 得 机 器 的 智能 与 人 的 智能 相 辅 
相 成 ， 使 医疗 从 传统 的 “个 体 经 验 决策 ”转向 “智能 
辅助 决策 ”的 新 模式 ， 进 而 为 医疗 系统 的 革新 带 来 新 
的 可 能 。 

(4) 重大 公共 安全 问题 与 社会 治理 。 重 大 公共 


安全 问题 指 对 社会 和 公民 所 需 的 稳定 环境 有 严重 影响 
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的 重大 问题 。 公 共 安 全 问题 涉及 多 方 复杂 因素 ， 包 括 
人 类 社会 、 目 然 环 境 、 突 发 事件 等 ， 是 典型 的 人 在 回 
路 的 复杂 应 用 问题 ， 急 需 应 用 大 数据 技术 手段 进行 预 
测 、 预 警 和 防 控 。 以 新 冠 肺 炎 疫 情 为 例 ， 大 数据 分 析 
技术 手段 和 人 机 混合 智能 ， 为 疫情 走势 预测 、 传 播 链 
排查 、 谣 言传 播 溯源 和 意图 研判 等 人 在 回路 的 复杂 问 
题 提供 了 有 力 帮 助 ， 支 撑 疫 情 精 准 防 控 。 


4 数据 科学 与 计算 智能 的 关键 问题 


数据 科学 的 发 展 ， 将 帮助 我 们 厘清 数据 科学 的 理 
论 边 界 ， 为 计算 智能 的 持续 发 展 提供 新 的 可 能 与 机 
遇 ; 与 此 同时 ， 计 算 智 能 的 发 展 与 新 型 智能 范式 的 兴 
起 ， 也 将 为 大 数据 在 各 行业 和 各 领域 的 应 用 提供 新 的 
契机 。 在 本 节 ， 我 们 从 数据 科学 的 基本 内 涵 与 边界 、 
新 型 智能 范式 与 智能 能 力 测试 、 数 据 评价 体系 与 共享 
利用 3 个 方面 出 发 ， 基 于 香山 科学 会 议 第 667 KER 
讨论 会 与 会 专家 的 讨论 ， 提 炼 形成 数据 科学 与 计算 智 
能 领域 的 七 大 关键 问题 ， 以 期 得 到 相关 领域 研究 者 的 
共同 关注 ， 从 而 把 握 时 代 的 机 遇 ， 推 动 数据 科学 与 计 
算 智 能 的 持续 发 展 。 

4.1 大 数据 中 的 相关 关系 与 因果 关系 

因果 关系 指 一 个 变量 的 发 生 会 导致 另 一 个 变量 的 
发 生 。 而 相关 关系 则 指 一 个 变量 发 生变 化 时 ， 男 一 
个 变量 也 会 规律 性 地 发 生变 化 。 一 般 情 况 下 ， 因 果 
关系 往往 也 是 相关 关系 ， 而 相关 关系 并 不 一 定 是 因果 
关系 。 大 数据 的 存在 ， 使 得 人 们 可 以 广泛 寻求 相关 关 
系 ，Mayer-Sch5nberger 王 甚至 在 其 书 中 说 道 ，“ 大 数 
据 时 代 最 大 的 转变 就 是 放弃 对 因果 关系 的 渴求 ， 而 取 
而 代 之 关注 相关 关系 ”。 相 关 关系 确实 能 在 商业 和 实 
际 应 用 中 带 来 巨大 的 成 功 ,但 这 种 成 功 从 科学 角度 尚 
需 谨慎 看 待 。 从 科学 研究 的 角度 来 看 ， 相 关 关 系 研究 
是 可 以 替代 因果 分 析 的 科学 新 发 展 ， 还 是 因果 分 析 的 
补充 ? 从 实际 应 用 看 ， 从 数据 中 挖掘 出 的 相关 关系 能 
否 看 作 是 一 种 近似 因果 关系 帮助 人 们 进行 预测 或 决 
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R? 对 此 ,不 同 的 学 者 有 不 同 甚至 相反 的 看 法 。 

建议 未 来 重点 研究 方向 : MRKA RE I AR 
关系 的 程度 ， 相 关 关 系 和 因果 关系 的 边界 ， 是 否 可 以 
利用 反 事 实 推 朵 从 相关 关系 中 推 产 出 因果 关系 ， 以 及 
如 何 保证 大 数据 分 析 的 结论 可 信 等 问题 。 
4.2 数据 科学 的 复杂 性 问题 

在 计算 机 科学 中 ， 算 法 的 计算 复杂 性 是 一 个 基本 
问题 ， 包 括 时 间 复 杂 性 和 空间 复杂 性 。 而 数据 科学 除 
了 对 计算 复杂 性 的 研究 外 ， 还 需要 探索 数据 自身 的 复 
杂 性 及 模型 复杂 性 。 数 据 科 学 不 能 一 味 地 靠 增加 数据 
量 或 者 模型 的 参数 规模 来 提升 其 性 能 。 给 定 一 个 具体 
问题 ， 到 底 需 要 多 大 规模 的 数据 或 多 复杂 的 模型 才能 
获得 有 效 解 ”一 个 复杂 模型 判定 能 力 的 提升 到 底 有 没 
有 尽头 或 界限 ? 数据 规模 和 模型 复杂 度 之 间 是 什么 关 
系 ? 这 些 问题 在 大 数据 工程 化 应 用 中 也 许可 以 有 经 验 
性 的 判定 ,但 是 在 数据 科学 研究 中 需要 弄 清楚 其 基本 
内 涵 和 规律 。 

建议 未 来 重点 研究 方向 : 从 数据 科学 理论 出 发 ， 
给 出 数据 复杂 性 、 模 型 复杂 性 和 模型 性 能 之 间 的 关系 
(上 下 界 或 渐进 理论 ) ， 为 大 数据 的 科学 化 研究 和 高 
效率 应 用 奠定 重要 基础 ; 当然， 要 对 所 有 领域 给 出 一 
个 共同 的 数据 科学 基础 理论 ， 可 能 比较 困难 ,但 可 以 
考虑 先 从 某 些 重要 领域 或 典型 问题 出 发 进行 探索 。 
4.3 有 限时 空 约 束 下 的 无 限 数据 计算 

在 很 多 场景 中 ， 解 决 问题 所 需要 的 数据 可 能 是 大 
量 流 动 的 ， 甚 至 是 无 限 的 一 一 无 法 确定 其 边界 。 例 
如 ， 真 实 的 自动 驾驶 技术 需要 在 任意 环境 、 道 路 上 都 
确保 其 有 效 性 ， 理 想 情况 下 我 们 需要 通过 搜集 大 量 的 
数据 来 不 断 训练 自动 驾驶 模型 ， 促 使 自动 驾驶 水 平 的 
提升 ; 但 问题 在 于 ， 在 实际 操作 中 我 们 无 法 在 有 限时 
空 资源 下 搜集 、 处 理 所 有 的 数据 。 现 有 的 自动 驾驶 技 
术 ， 也 基本 都 是 在 有 限 的 实验 室 环 境 下 或 者 固定 的 道 
路 上 进行 学 习 训练 ， 以 期 能 够 实现 在 任意 环境 和 非 确 
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建议 未 来 重点 研究 方向 : 面向 上 述 边界 不 确定 的 
数据 ， 到 底 多 大 的 数据 量 对 问题 而 言 是 足够 的 ， 以 及 
什么 样 的 数据 采样 机 制 才能 保证 逼近 数据 整体 分 布 ; 
或 者 说 ， 该 如 何在 有 限时 空 资源 限制 下 来 处 理 边界 不 
确定 的 数据 。 

4.4 强 不 确定 性 复杂 系统 环境 下 的 新 型 智能 范式 

大 数据 空间 融合 了 “人 -机 - 物 ” 三 元 世界 ， 其 交 
互 方式 、 运 行 方式 极其 复杂 。 复 杂 系 统 中 里 域 高 维 稀 
琉 的 大 数据 具有 很 强 的 时 空 分 布 不 确定 性 和 价值 规律 
不 确定 性 。 在 这 样 一 个 强 不 确定 性 的 复杂 环境 下 ， 能 
否 形 成 形式 化 、 可 计算 的 新 型 智能 范式 ? 如果 存在 这 
样 的 智能 范式 ， 是 否 还 需要 依靠 大 规模 数据 驱动 ? 现 
有 的 脑 局 发 计算 、 演 化 智能 、 复 杂 系 统 模拟 等 主要 还 
是 依赖 计算 机 的 计算 能 力 ， 未 来 还 需要 进一步 探索 能 
够 突破 计算 机 计算 能 力 边界 的 智能 范式 。 人 在 回路 的 
人 机 混合 智能 是 一 个 可 能 的 发 展 方向 ， 其 目标 是 打通 
人 类 智能 与 机 噩 智能 的 融合 通道 ， 通 过 有 机 融合 方式 
实现 人 机 混合 智能 。 

建议 未 来 重点 研究 方向 : 人 机 混合 的 智能 通道 构 
建 及 其 方式 〈 近 几 年 发 展 迅速 的 脑 机 接口 技术 、 思 维 
融合 范式 等 ) ; 探索 这 类 新 型 智能 范式 的 主要 特征 是 
TA, 是否 图 灵 计 算 等 价 ， 是 对 当前 计算 智能 的 改良 
还 是 题 履 ， 以 及 数据 科学 在 其 中 发 挥 什么 样 的 作用 
等 。 这 些 开 放 性 问题 研究 将 为 数据 科学 和 计算 智能 带 
来 新 的 视野 和 机 会 。 

4.5 图 灵 测 试 以 外 的 通用 人 工 智能 测试 

图 灵 测 试 是 早期 普遍 被 接受 的 人 工 智能 测试 准 
则 ， 主 要 通过 测试 者 (人 ) SMAA (HAr) 在 隔 
离 情 况 下 的 问答 来 测试 机 器 的 智能 。 这 是 一 种 非常 
巧妙 的 思想 实验 ,但 并 非 工程 实验 。 图 灵 测 试 的 3 个 
开放 特点 一 一 问题 开放 、 测 试 者 开放 、 语 言 开 放 ， 导 
致 真正 可 重复 的 图 灵 测 试 很 难 实现 。 而 在 一 般 的 计算 
智能 设计 中 ， 一 个 重要 准则 就 是 需要 可 重复 是 有 效 的 
评价 方式 。 
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建议 未 来 重点 研究 方向 : 探寻 图 灵 测 试 之 外 更 加 
科学 有 效 的 通用 人 工 智 能 测试 方法 ， 以 及 探索 以 人 作 
为 标准 答案 和 参照 系 之 外 的 可 重复 且 有 效 的 智能 评价 
标准 。 

4.6 领域 无 关 的 数据 分 类 体系 与 评价 指标 

数据 科学 研究 中 的 数据 常常 来 自 各 个 不 同 的 领 
域 ,领域 之 间 的 数据 类 型 、 数 据 完整 性 、 数 据 规律 等 
具有 非常 大 的 差异 性 。 我 们 不 能 只 针对 某 个 特定 领 
域 的 数据 来 谈论 数据 科学 ， 而 应 该 对 所 有 领域 的 数据 
建立 一 套 共同 的 话语 体系 和 统一 的 度量 标准 。 换 句 话 
说 ， 需 要 对 不 同 领域 的 大 数据 ， 进 行 领域 无 关 的 科学 
分 类 ， 构 建 跨 领 域 、 可 泛 化 的 数据 评价 指标 和 体系 。 

建议 未 来 重点 研究 方向 : 可 以 从 数据 质量 、 多 样 
性 、 复 杂 性 、 不 确定 性 或 价值 密度 等 多 个 维度 出 发 ， 
定义 数据 的 统一 评价 指标 。 这 样 的 评价 指标 可 以 使 不 
同 领域 的 研究 者 对 数据 拥有 共同 话语 体系 ， 有 利于 以 
数据 作为 研究 对 象 开展 持续 的 科学 化 研究 。 

4.7 可 信任 的 数据 共享 与 流通 

大 数据 是 数据 科学 的 研究 基础 和 研究 对 象 ， 数 据 
科学 的 发 展 离 不 开 良 性 的 数据 治理 和 大 数据 基础 环境 
建设 。 其 中 一 大 挑战 问题 是 可 信任 的 数据 共享 与 流 
通 。 数 据 不 同 于 传统 商品 ， 可 能 会 存在 无 限 复制 和 无 
限 使 用 的 问题 ， 因 而 造成 数据 流通 价值 失效 。 

建议 未 来 重点 研究 方向 : 如 何 用 技术 手段 来 确保 
数据 共享 和 流通 的 有 效 与 安全 ， 其 中 数据 供给 和 数据 
使 用 是 2 个 关键 环节 。(D 在 数据 供给 方面 ， 可 以 考虑 
数据 的 有 限 供 给 ， 通 过 技术 的 手段 对 数据 进行 限量 发 
行 。 例 如 ， 通 过 对 使 用 数据 的 工具 增加 保护 机 制 ， 实 
现 数据 的 有 偿 服务 。 也 可 以 利用 区 块 链 ” 等 技术 ， 保 
证 数据 的 单方 持 有 。C@ 在 数据 使 用 方面 ， 需 要 考虑 
数据 的 有 界 使 用 ， 保 证 数据 的 使 用 不 涉及 用 户 隐 私 等 
问题 。 具 体 来 说 ， 可 以 利用 密码 学 、 联 邦 学 习 王 等 手 


段 ， 在 保证 隐私 的 前 提 下 加 密 数 据 的 传输 ， 通 过 确立 
数据 类 型 或 关系 而 非 获 得 数据 本 身 作为 数据 使 用 的 主 
要 方式 。 数 据 的 共享 和 流通 是 数据 开放 研究 的 基础 ， 
期 待 未 来 有 更 多 的 人 关注 数据 开放 的 技术 手段 研究 。 


5 未 来 展望 : 开启 “第 五 范式 ”科学 研究 

在 过 去 十 几 年 间 ， 随 着 可 获得 和 可 使 用 的 大 数据 
持续 增长 ， 第 四 范式 作为 一 种 新 的 科学 研究 范式 ， 受 
到 科学 家 越 来 越 多 的 关注 ; 同时 ， 也 暴露 出 了 很 多 不 
Eo PU: 数据 不 确定 性 问题 、 数 据 复杂 性 问题 、 数 
据 的 维 数 爆炸 问题 、 数 据 的 尺度 边界 问题 等 。 目 前 ， 
网 络 科 学 、 脑 科学 、 社 会 科学 等 领域 面临 的 重大 问 
题 都 是 极其 复杂 且 动 态 变化 的 难题 ， 采 用 经 典 物 理 一 
样 的 简单 实验 〈 第 一 范式 ) 、 基 于 公理 和 假说 的 理论 
推演 (第 二 范式 ) 、 基 于 模型 的 计算 机 模拟 (第 三 范 
IN) 和 数据 驱动 的 相关 性 分 析 (第 四 范式 ) 都 无 法 解 
决 。 为 此 ， 科 学 家 开始 寻求 更 接近 数据 和 智能 本 质 、 
更 有 效 认 识 复杂 性 和 不 确定 性 的 新 科学 研究 范式 。 目 
前 ， 这 类 新 的 科学 探索 方法 论 尚未 形成 定论 ， 大 体 上 
看 ， 这 类 新 的 科学 研究 范式 是 以 智能 为 研究 目标 的 浸 
和 人 式 具 身 研究 ， 我 们 暂时 称 之 为 “第 五 范式 ””。 基 
于 数据 科学 本 体 论 认识 ， 我们 猜测 “第 五 范式 ”和 第 
四 范式 一 样 都 会 以 数据 为 对 象 ， 不 同 的 是 “第 五 范 
式 ” 更 侧重 于 人 、 机 妖 及 数据 之 间 交 互 ， 强 调 人 的 决 
策 机 制 与 数据 分 析 的 融合 ， 体 现 了 数据 和 智能 的 有 机 
结合 ; “第 五 范式 ”强调 从 本 体 论 的 角度 看 待 数 据 ， 
认为 数据 本 身 列 含 自 然 智能 的 规律 ， 也 是 新 型 智能 
的 载体 和 产物 ， 期 望 在 数据 驱动 智能 的 同时 突破 现 有 
计算 智能 的 能 力 边界 ， 借 助 自然 智能 构造 新 型 智能 范 
式 。 

目前 ， 针 对 “第 五 范式 ”的 探索 刚刚 起 步 ， 从 方 
法 论 上 还 归纳 不 出 它 的 基本 特征 ; 但 可 以 肯定 ， 它 的 


已 
已 
已 
已 


@ 几 年 前 有 学 者 将 “虚拟 科学 ”和 “游戏 科学 ” 称 为 科学 研究 第 五 范式 ""， 与 本 文 提出 的 “第 五 范式 ”的 角度 有 所 不 同 。 
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一 个 重要 特征 是 “融合 ”， 既 要 融合 前 四 种 范式 ， 又 
要 融合 统计 学 、 网 络 科 学 、 脑 科学 等 前 沿 研 究 中 涌现 
的 新 方法 。 第 三 范式 和 第 四 范式 都 用 到 计算 机 : 第 三 
范式 是 “人 脑 + 计 算 机 ”， 人 脑 是 主角 ; 第 四 范式 是 
“计算 机 + 人 脑 ”， 计 算 机 是 主角 。 第 五 范式 既 强调 
人 脑 与 计算 机 的 “有 机 融合 ”， 也 可 能 更 进一步 从 社 
会 系统 和 人 脑 系统 借鉴 其 中 的 计算 与 决策 机 制 ， 从 而 
更 重视 人 和 社会 在 科学 研究 回路 中 的 形式 化 建 模 与 计 
算 融 合 。 

数据 科学 和 计算 智能 的 发 展 催生 “第 五 范式 ”; 
“第 五 范式 ”发 展 离 不 开 对 数据 科学 内 涵 的 丰富 和 计 
算 智 能 能 力 边界 的 突破 。 从 研究 对 象 看 ，“ 第 五 范 
式 ” 是 科学 研究 从 对 物理 世界 、 人 类 社会 的 研究 拓展 
到 “人 -机 - 物 ” 融 合 的 三 元 空间 ; 从 研究 目标 上 看 ， 
“第 五 范式 ”不 仅仅 是 传统 的 科学 发 现 ， 更 是 对 智能 
系统 的 探索 和 实现 ; 从 研究 方法 上 看 ，“ 第 五 范式 ” 
强调 人 在 回路 的 浸入 式 具 身 研究 。 目 前 ， 还 难以 给 出 
“第 五 范式 ”的 清晰 界定 ， 也 许 再 过 10 一 20 年 ，“ 第 
五 范式 ”的 特征 就 明朗 了 ， 可 能 逐步 成 为 科学 研究 的 
主流 范式 之 一 。 


致谢 ”本 文 的 一 些 观点 受到 香山 科学 会 议 第 667 次 学 
术 讨 论 会 与 会 者 发 言 的 启发 ， 在 此 对 这 次 会 议 的 所 有 
参加 者 表示 感谢 。 
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Abstract 


The development of data science is valuable to clarify the theoretical boundary of data science, and provides new 


possibilities and opportunities for the sustainable development of computing intelligence. Meanwhile, the development of computing 


intelligence and the emergence of new intelligence paradigms can offer new chance for applications of big data in various industries and 


fields. This paper discusses the connotation of data science, the development of computing intelligence, the new intelligence paradigm, 


and lists the key applications leading the development of data science and computing intelligence. Furthermore, based on the discussion 


during the 667th Xiangshan Science Conference, seven key problems of data science and computing technology are proposed, 


anticipating to attract attentions of both researchers and applications in related fields, grasping the opportunity of the era, and promoting 


sustainable development of data science and computing intelligence. 
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